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摘要 ”神经 网 络 可 以 基于 大 量 数据 学 习 输 入 输出 变量 之 间 的 关系 ， 具 有 强大 的 拟 合 能 力 ， 在 包括 核 工 程 计 
算 领 域 常 用 作 程序 的 代理 模型 。 中 子 输 运 计算 作为 中 子 学 模拟 的 核心 环节 之 一 ， 其 耗 时 较 长 的 问题 可 以 通过 
利用 神经 网 络 模型 来 解决 。 然 而 ， 神 经 网 络 模型 具有 一 系列 超 参数 需要 设置 ， 而 手动 调节 这 些 超 参数 工作 量 
大 ， 重 复 繁 琐 ， 只 能 依靠 经 验 进行 ， 而 且 求 解 不 同 问题 时 这 些 超 参数 不 可 。 为 了 解决 以 上 问题 ， 本 文 提 
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出 了 一 种 采用 贝 叶 斯 优化 (Bayesian Optimization) 算 法 来 调节 神经 网 络 超 参数 , 结合 了 学 习 率 衰减 、 损 失 函 数 优 
化 方法 ， 它 可 以 针对 不 同 问题 的 数据 集 ， 自 动 搜索 超 参数 的 最 佳 纪 以 获得 最 佳 性 能 ， 有 具有 很 高 的 灵活 性 
和 效率 ， 泛 化 性 强 。 本 文 对 TAKEDA 基准 题 得 到 的 堆 芯 关键 参数 进行 拟 合 ， 结 果 表明 有 效 增 殖 因 数 kof 的 平 
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均 误 差 在 150pcm N, TAKEDA] 数据 集 上 区 域 积 分 通 量 从 的 平均 误差 率 为 1.72%， 最 大 误差 率 为 7.56%。 
该 研究 可 为 人 工 智 能 在 堆 芯 物理 计算 理论 的 应 用 提供 一 定 参考 。 
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Abstract | [Background]:Neural networks, with their powerful fitting capabilities, can learn the relationships 


between input and output variables based on large amounts of data, often serving as proxy models for physical 
programs in the field of engineering calculations, including nuclear engineering calculations. Neutron transport 
calculations, as one of the core links in neutronics simulations, often suffer from lengthy computational times. 
However, this issue can also be addressed by utilizing neural network models. Nevertheless, neural network models 
have a series of hyperparameters that need to be set, but manually adjusting these hyperparameters is laborious, 
repetitive, and reliant only on experience. Moreover, these hyperparameters are not reusable when solving different 
problems. [Purpose]: By seeking a surrogate model for VITAS, the research can provide some reference for the 
application of artificial intelligence in core physics calculation theory.[Methods]:This paper proposes the use of the 
bayesian optimization algorithm to adjust neural network hyperparameters, combined with learning rate decay and 


loss function optimization methods. [Results]: By fitting the key core parameters obtained from VITAS's calculation 
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of the TAKEDA benchmark problem, the results show that the average error of the effective multiplication factor is 
within 150pcm, and the average error rate of the regional integral flux on the TAKEDA1 dataset is 1.7296, with a 
maximum error rate of 7.56%. [Conclusions]: This approach can automatically search for the optimal combination of 
hyperparameters for different datasets to achieve the best performance, demonstrating high flexibility, efficiency, and 
strong generalization. 


Key words Bayesian optimization for hyperparameter tuning, FCNN, Neutron transport computation 


核反应 堆 物 理 计 算 中 ， 蒙 特 卡 罗 方 法 帆 (Monte Carlo method, MC) 和 确定 论 方法 是 求解 中 子 输 运 问 
题 的 两 类 主要 方法 ,常用 的 中 子 输 运 方法 包含 有 限 元 法 (Finite Element Method. FEM) 、 特 征 线 方法 (Method 
Of Characteristics，MOC ) 和 变 分 节 块 法 24 CVariational Nodal Method, VNM) 等 。 这 些 传统 中 子 输 运 方 
法 存在 计算 效率 低 、 耗 时 较 长 的 特点 ， 难 以 应 用 于 频繁 的 堆 忌 方案 优化 、 换 料 设 计 等 工作 。 

相 比 于 传统 的 蒙特 卡 罗 方 法 和 确定 论 中 子 输 运 方法 ， 机 器 学 习 和 人 工 智 能 在 处 理 复杂 大 数据 方面 具有 
优势 。 近 年 来 ， 核 物理 领域 与 机 器 学 习 的 交 义 应 用 正在 兴起 ， 具 有 广阔 的 应 用 前 景 。 宋 梅村 等 外 开发 出 
基于 BP (back propagation? 人 工 神 经 网 络 的 堆 蕊 参数 预测 程序 , 且 相 对 误差 在 10% 以 内 ,引起 了 后 续 研究 者 
的 兴趣 ，Akkoyunt1 使 用 人 工 神经 网 络 实现 对 全 聚变 和 聚变 -蒸发 反应 截面 的 预测 。 而 Guo 等 中 则 使 用 一 个 
混合 人 工 神 经 网 络 模 拟 红 杉 核电 站 的 热力 学 行为 。 其 中 , 全 连接 神经 网 络 (Fully Connected Neural Network, 
FCNN) ， 是 一 种 连接 方式 较为 简单 的 人 工 神 经 网 络 结构 ， 属 于 前 馈 神 经 网 络 四 的 一 种 ， 只 由 输入 层 、 隐 藏 
层 和 输出 层 构成 ， 并 且 在 每 个 隐藏 层 中 可 以 有 多 个 神经 元 ， 可 以 应 用 于 几乎 所 有 任务 的 多 功能 学 习 方 法 ， 
包括 分 类 、 回 归 ， 以 及 无 监督 学 习 。 由 于 机 器 学 习 能 够 拟 合 复杂 的 分 析 计 算 过 程 并 节省 人 工 和 计算 的 成 本 ， 
因而 获得 了 飞速 的 发 展 。 
VITASB40 是 基于 VNM 开发 的 一 套 精 确 求 解 中 子 输 运 问题 的 通用 型 计算 程序 , 它 集成 了 多 种 计算 方法 ， 
利用 和 矩 阵 运 算 和 数值 积分 技术 ， 能 够 处 理 多 种 不 同 网 格 类 型 的 多 维 、 多 群 、 稳 态 和 有 瞬 态 中 子 输 运 问题 。 为 
改善 传统 输 运 方法 计算 效率 低 、 耗 时 较 长 的 缺陷 ， 本 文 基于 神经 网 络 方法 开发 了 堆 忌 输 运 计算 替代 模型 ， 
以 蔡 代 VITAS 程序 的 计算 功能 
然而 ， 神 经 网 络 中 有 一 系列 超 参 数 需要 设置 ， 它 们 在 极 大 程度 上 决定 了 FCNN 的 性 能 。 手 动 调整 超 参 
数 工作 量 庞大 ， 需要 一 定 的 经 验 ， 代 价 高 昂 。 而 且 随 着 机 器 学 习 的 不 断 发 展 ， 深 度 学 习 〈Deep Learning) 
建 模 中 涉及 到 的 超 参 数 数量 远 超 传 统 机 器 学 习 方 法 ， 手 动 调 参 开始 不 能 满足 精度 和 省 时 的 需求 。 近 年 来 贝 
叶 斯 优化 0 在 求解 黑 盒 函数 问题 中 应 用 越 来 越 广泛 ， 己 经 成 为 超 参 数 优化 的 主流 方法 I。 贝 叶 斯 优化 在 不 
同 的 领域 也 称 作 序 贯 克 里 金 优化 (Sequential Kriging Optimization; SKO) 、 基 于 模型 的 序 贯 优化 CSequential 
Model-based Optimization, SMBO) 、 高 效 全 局 优化 (Efficient Global Optimization, EGO) 。 它 是 一 种 全 
局 优化 的 方法 ， 使 用 代理 模型 拟 合 真实 目标 函数 ， 并 根据 拟 合 结果 主动 选择 最 有 “潜力 ”的 评估 点 进行 装 
估 ， 利 用 完整 的 历史 信息 来 提高 搜索 效率 ， 从 而 在 少数 次 评估 下 得 到 复杂 函数 的 最 优 解 。 因 此 ， 贝 叶 斯 优 
化 也 称 作 主 动 优化 (active optimization? 。 同 时 贝 叶 斯 优化 框架 能 够 有 效 地 利用 完整 的 历史 信息 来 提高 搜 
索 效率 。 

本 文 基于 贝 叶 斯 优化 方法 ， 结 合 学 习 率 衰减 、 损 失 函 数 优 化 等 方法 ， 对 FCNN 超 参数 进行 优化 选取 ， 
使 用 VITAS 程序 计算 TAKEDA 基准 题 得 到 的 实验 数据 作为 数据 集 , 评估 了 优化 超 参数 后 的 FCNN 的 预测 
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1 理论 模型 
11 ” 贝 叶 斯 优化 方法 


贝 叶 斯 优化 框架 有 两 个 关键 部 分 : CIO 使 用 概率 模型 代理 原始 评估 代价 高 郧 的 复杂 目标 函数 ;， (2) 
代理 模型 的 后 验 信息 构造 主动 选择 策略 ， 即 采集 函数 。 在 实际 应 用 中 ， 需 要 针对 具体 问题 选择 合适 的 模 
型 。 本 节 介 绍 超 参数 优化 问题 的 定义 和 贝 叶 斯 优化 的 步 又 。 在 本 节 最 后 ， 给 出 了 本 研究 选取 的 FCNN 超 参 
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数 及 其 取 值 范围 。 
超 参 数 优化 问题 定义 为 : 


argmin ,x f(x) (1) 
其 中 ,x 为 超 参数 的 一 组 设置 取 值 ， 忒 为 超 参数 搜索 空间 。 f(x) 为 超 参 数 优 化 中 ， 需 要 优化 的 目标 。 
本 研究 取 损 失 函 数 (Loss Function) 作为 f(x) 的 取 值 ， 对 损失 函数 的 比较 和 选取 在 1.2 节 (2) 中 损失 函数 
优化 里 给 出 。 在 超 参数 算法 优化 的 目标 是 以 最 快 的 方式 找到 全 局 最 优 解 。 贝 叶 斯 优化 超 参数 的 步骤 如 下 : 
(1) 在 超 参数 搜索 空间 了 中 随机 初始 化 nn 组 %,; 
(2) 获得 其 对 应 的 函数 值 Aon) ， 得 到 初始 点 集 D,={ Xini S Oni) p E t= mD, =D,; 
(3) 根据 当前 获得 的 点 集 分 布 ， 构 建 代 理 模 型 g(xX) ; 
(4) 基于 代理 模型 gx) ,最 大 化 采集 函数 g(x|D, ,) ,获得 下 一 个 评估 点 : x, -argmaxa(x|D, ,); 
C5) 获得 评估 点 的 函数 值 f(x,) ， 将 其 加 入 到 当前 评估 点 合集 中 : D DOUG. fx). 1=t+1。 
E CU INTIORGRINUR N, FEES (3) ; 
C60 XSSUBCAKGETRUCRUS . "HIS DUVER AX (X ,f(x ) } 。 
本 研究 调用 Tensorflow!?!f] Bayesian Optimization 函数 实现 贝 叶 斯 优化 过 程 。 通 过 输入 超 参 数 及 其 取 
值 范围 启动 优化 功能 ， 选 取 的 FCNN 超 参 数 及 其 取 值 范围 如 表 1 所 示 : 


表 1 选取 的 超 参 数 及 其 取 值 范围 


Table 1 The selected hyperparameters and their ranges 


Hyperparameters Ranges 
比 次 大 小 batch. size [1,1000] 


隐藏 层 数 量 num hidden layers [ 

BJE min delta [ 

衰减 因子 factor [0.1,0.9] 
[ 
[ 


隐藏 层 神经 元 数量 num. neurons 
损失 函数 参数 loss. delta 


dpa mpg S SP FONN 中 的 关键 参数 ， 在 下 文中 介绍 。 
12 ”全 连接 神经 网 络 


在 中 子 输 运 求解 的 代理 模型 选择 方面 ， 本 工作 选取 全 连接 层 神 经 网 络 FCNN 开展 研究 。FCNN 是 一 种 
连接 方式 较为 简单 的 人 工 神经 网 络 结构 ， 属 于 前 馈 神经 网 络 的 一 种 ， 只 由 输入 层 (Input Layer) . Fasz 
(Hidden Layer) 和 输出 层 (Output Layer) 构成 ， 并 且 在 每 个 隐藏 层 中 可 以 有 多 个 神经 元 ， 如 图 1 所 示 。 
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Hidden Layer 


Input Output 


1 FONN 示意 图 
Fig.1 Schematic of FCNN 


整个 网 络 的 搭建 基于 python 上 的 开源 框架 Tensorflow， 它 是 2015 年 由 谷歌 公司 研发 的 第 二 代 人 工 智 
能 深度 学 习 平 台 。FCNN 训练 过 程 中 有 如 下 参数 : 

Epoch: 将 全 部 的 训练 集 数 据 投入 神经 网 络 模型 完成 一 次 完整 的 训练 ， 该 过 程 称 为 一 个 Epoch 。 

Batch_Size〈 一 次 投入 网 络 模型 中 的 数据 量 ) : 因为 算 力 或 者 其 他 原因 ， 不 能 将 数据 一 次 性 通过 神经 
网 络 时 ， 就 需要 将 数据 集 分 成 若干 个 batch〈 批 次 ) ， 使 用 训练 集中 的 一 小 部 分 数据 样本 对 模型 权重 进行 
次 反 向 传播 的 参数 更 新 。 

学 习 率 (Learning Rate, lr) 是 指 在 训练 神经 网 络 时 用 于 调整 拟 合 参数 的 步 进 大 小 ， 它 决定 了 每 次 梯度 
更 新 时 参数 的 调整 步 长 。 学 习 率 的 选择 直接 关系 到 模型 的 性 能 和 训练 过 程 的 效果 。 

(OD 自 适 应 调整 学 习 率 

学 习 率 知 设置 的 过 大 ， 会 导致 步 长 变 大 ， 容 易 出 现 震荡 ， 导 致 不 易 找 到 高 精度 的 解 。 图 2《〈 左 ) 所 示 
为 过 大 学 习 率 导致 的 损失 函数 震荡 ， 结 果 不 易 稳定 的 收敛 。 学 习 率 若 设 置 的 太 小 ， 收 敛 速度 会 变 慢 ， 容 易 
只 得 到 局 部 最 优 解 。 基 于 此 ， 本 文 提出 一 种 自 适应 调整 学 习 率 的 方法 ， 刚 开始 的 时 候 用 较 大 的 学 习 率 进行 
快速 逼近 ， 然 后 逐渐 降低 学 习 率 ， 以 适应 模型 参数 更 新 的 规律 ， 消 除 后 期 损失 函数 loss 的 震荡 ，loss 曲线 
趋 于 稳定 。 图 2《〈 右 ) 所 示 为 自 适 应 调整 学 习 率 后 的 损失 函数 下 降 曲 线 ， 很 好 地 消除 了 震荡 。 
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2 不 同学 习 率 下 损失 函数 曲线 图 


Fig.2 Plots of loss function curves with different learning rates 


本 研究 使 用 的 ReduceLROnPlateau 函数 是 tensorflow 中 的 一 个 学 习 率 调度 器 ， 它 能 够 根据 监测 指标 的 
变化 自动 调整 学 习 率 。 当 验证 集 上 的 性 能 指标 停止 改善 时 ，ReduceLROnPlateau 会 逐渐 减 小 学 习 率 ， 以 便 
模型 更 好 地 收 化 ， 它 有 如 下 几 个 参数 : 

lr: 学 习 率 初始 值 ; 

factor: 每 次 减少 学 习 率 的 因子 ， 学 习 率 将 以 lr = dr* factor 的 形式 被 减少 ; 

patience: 当 patience 个 epoch 过 去 而 模型 性 能 不 提升 时 ， 学 习 率 减少 的 动作 会 被 触发 ; 

min delta: 闵 值 ， 模 型 性 能 指标 改善 值 小 于 min delta 时 ， 视 为 性 能 没有 提升 。 

其 中 ，factor, min_delta 这 两 个 参数 被 选取 为 本 研究 中 贝 叶 斯 优化 的 超 参 数 。 

(2) 损失 函数 优化 

均 方 误差 (Mean Square Error; MSE) ， 指 的 是 模型 预测 值 S C) 与 样本 真实 值 y 之 间距 离 平 方 的 平均 
值 。 其 公式 如 式 2) 所 示 : 


| 


MSE = 二 > - f(x» Q) 


平均 绝对 误差 (Mean Absolute Error; MAE) 指 的 就 是 模型 预测 值 f(x) 与 样本 真实 值 y 之 间距 离 的 
平均 值 。 其 公式 如 式 (3) 所 示 : 


MAE = Y? »,- f) 3) 


公式 (2) 、 (3) 中 ，yy, 和 f(x,) 分别 表示 第 i 个 样本 的 真实 值 和 预测 值 ，m 为 样本 个 数 。 

使 用 MAE 作为 损失 函数 训练 神经 网 络 的 一 个 大 问题 是 其 梯度 始终 很 大 ， 可 能 导致 使 用 梯度 下 降 训练 
模型 结束 时 遗漏 最 小 值 。 而 MSE 的 梯度 会 随 着 损失 值 接近 其 最 小 值 逐 渐 减 少 ， 从 而 使 其 更 准确 。 该 问题 
可 以 选择 使 用 Huber Loss 来 进行 改善 。Huber Loss 是 回归 问题 中 的 一 种 损失 函数 ， 它 结合 了 MSE 和 MAE 
两 者 的 特点 。 它 可 以 在 最 小 值 附近 减 小 梯度 ， 解 决 MAE 漏 掉 最 小 值 的 问题 ， 而 且 相 比 于 MSE， 它 对 异常 
值 更 具 鲁 棒 性 。 本 文中 使 用 Huber Loss 作为 损失 函数 ， 其 公式 如 式 (4) Bras: 


B - FOY- feo i à 
LG, f) = | (4) 
81y-fG)l-28*4»- fe) 8 


Huber Loss 是 对 MSE 和 MAE 的 综合 , 它 包含 了 一 个 超 参数 5 ,5 值 的 大 小 决定 了 Huber Loss 对 MSE 
和 MAE 的 侧重 性 ， 当 5 一 0 时 ，Huber Loss 会 趋向 于 MAE; 当 6 一 oo 时 ，Huber Loss 会 趋向 于 MSE。 在 
K1, O 就 是 loss_delta。 
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上 述 参数 的 设置 决定 了 FCNN 的 性 能 ， 于 是 把 它们 设置 为 贝 叶 斯 优化 的 超 参数 ， 在 表 1 中 给 出 了 它们 
的 搜索 空间 。 


13 ”数据 集 的 获取 


本 文 使 用 的 数据 集 通 过 VITAS 程序 计算 TAKEDA1、2 基准 题 得 出 ， 分 别 为 10000 与 20000 组 ， 每 组 
数据 样本 由 堆 芯 排 布 方式 与 两 个 堆 蕊 参数 (有 效 增殖 因数 es 和 乡 区 域 积 分 通 量 ) 组 成 ， 输 入 维度 由 反应 堆 
堆 蕊 排 布 决定 ， 输 出 维度 为 堆 芯 参数 。TAKEDAI1 为 1/8 对 称 轻 水 反应 堆 模 型 TAKEDA2 为 1/4 快 中 子 增 
殖 反 应 堆 模 型 。 

TAKEDA1 包含 三 种 组 件 ， 分 别 为 控制 棒 (Control Rod, CR) ~ RATE (Reflector) 和 燃料 (Core) , 
它 的 三 维 示意 图 和 x-y 截面 堆 蕊 排 布 如 图 3 所 示 。 为 了 保证 堆 芯 有 物理 意义 ， 将 堆 芯 x-y 截面 的 1/4 最 外 一 
层 的 反射 层 固 定位 置 ， 其 余 组 件 打 乱 顺序 ， 再 对 称 成 完整 的 堆 芯 ， 如 图 4。 为 了 便于 FCNN 计算 ， 将 三 种 
组 件 CR，Reflector，Core 分 别 映射 为 -1， 0，1。 如 此 生成 10000 组 不 同 的 随机 排 布 ， 每 个 输入 向 量 中 -1， 
0, 1 的 排列 顺序 与 其 组 件 打 乱 后 的 排 布 顺序 一 一 对 应 ， 输 入 维度 为 16， 训 练 时 分 别 用 2 套 独立 的 FCNN 
预测 2 个 物理 量 ， Ar 的 输出 维度 为 1， 乡 为 6。 


Reflector 


(b) (c) 


图 3 TAKEDA1 示意 图 : (a) 三 维 模型 (b)x-y 截面 (c) x-y 截面 的 1/4 
Fig.3 Schematic of TAKEDA1: 


(a) 3D model, (b) x-y cross-section, (c) Quarter of the x-y cross-section. 
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图 4 TAKEDAI 堆 芯 排 布 打 乱 示意 


Fig.4 TAKEDA! core arrangement disruption schematic 


TAKEDA2 包含 三 种 组 件 ， 分 别 为 控制 棒 (Control Rod, CR) ， 轴 向 增殖 区 (Axial Blanket) 和 径 向 
增殖 区 (Radial Blanket) ， 它 的 示意 图 如 图 5S。 为 了 保证 堆 芯 有 物理 意义 ， 将 堆 芯 x-y 截面 的 1/4 最 外 三 层 
Radial Blanket 固定 位 置 ， 其 余 组 件 打 乱 顺序 ， 再 对 称 成 完整 的 堆 芯 ， 如 图 6。 为 了 便于 FCNN 计算 ,将 三 
种 组 件 CR，Axial Blanket, Radial Blanket 分 别 映射 为 -1， 0，1。 如 此 生成 20000 组 不 同 的 随机 排 布 。 
个 输入 向 量 中 -1，0，1 的 排列 顺序 与 其 组 件 打 乱 后 的 排 布 顺序 一 一 对 应 ， 输 入 维度 为 121， 训 练 时 分 别 用 


2 套 独 立 的 FCNN 预测 2 个 物理 量 ，Kr 的 输出 维度 为 1， 乡 为 20。 


Raidial Blanket 


(a) (b) 


图 5 TAKEDA? 示意 图 : (a) 三 维 模型 (b)x-y TTE 


Fig.5 Schematic of TAKEDA2: 


(c) x-y 截面 的 1/4 


(a) 3D model, (b) x-y cross-section, (c) Quarter of the x-y cross-section. 


71 EJ 


图 6 TAKEDA2 堆 世 排 布 打 乱 示意 图 
Fig.6 TAKEDA2 core arrangement disruption schematic diagram 
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训练 FCNN Be 数据 集 ， 假 设 有 WN 个 训练 样本 ， 每 个 训练 样本 应 为 : 


= (X, Y,)k =0,1, N -1) (5) 

T, 为 第 个 训练 样本 ， 包 含 RAE Y — P 其 中 ， 
KX = [XiX AX] (6) 
Y, = Wir Yio Y] (7) 


i，j 分 别 为 输入 、 输 出 变量 的 维度 。TAKEDA1 FHI k=10000, 4A [8] 5E X 73-1, 0, 1 的 排列 顺序 ， 
组 输入 的 维度 i=16, 分 别 用 2 套 独立 的 FCNN 预测 2 个 物理 量 , 两 套 FCNN 的 输出 变量 了 分 别 为 kn 和 乡 ， 
ka 的 维度 j=1, $ 73 6. TAKEDA2 中 的 =20000, 输 入 癌 量 了 为 -1,0,1 的 排列 顺序 , 每 组 输入 的 维度 ;=121， 
分 别 用 2 E FONN 的 网 络 预测 2 个 物理 量 , 两 套 FCNN 的 输出 变量 了 分 别 为 ks R0, ka 的 维度 j=1, $ 为 
20。 


14 ”模型 验证 


本 研究 的 数据 集 使 用 了 10000 组 TAKEDA1 和 20000 组 TAKEDA2 数据 ， 输 入 为 反应 堆 的 堆 芯 排 布 ， 
输出 的 两 个 参数 分 别 为 kemo, A 6:4 的 比例 划分 为 训练 集 和 验证 集 ， 算 法 流程 图 如 图 7 所 示 : 


Hyper Parameters and their ranges 


Bayesian Optimization 


Best Hyper Parameters 


FCNN 


7 算法 流程 图 
Fig.7 Algorithm flowchart 


以 TAKEDAI 为 例 ， 下 表 给 出 了 手动 设置 的 一 组 超 参数 以 及 贝 叶 斯 优化 输出 的 一 组 超 参 数 的 值 : 
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表 2 TAKEDAI 的 超 参数 选择 
Table 2 Hyperparameter selection for TAKEDA1 


Loss 


后 趋 于 平稳 。 


Loss 


批 次 大 小 隐藏 层 数 uu 衰减 因子 ”神经 元 数量 损失 函数 
Batch size Hidden layers Min delta Factor Num neurons 参数 
Loss delta 
手动 设置 ks 2000 4 5.5e-5 0.9 800, 900, 1600, 800 0.608 
Manual Setting 
ó 3 5 4.5e-5 0.5 400, 800, 1800, 600, 50 0.3 
贝 叶 斯 优化  k. 53 3 1.248e-5 — 0.5 785, 1683, 1042 9.6 
Bayesian 
Optimization 4 11 5 8.927e-05 0.61 1033, 1741, 237, 1937, 579 7.65 


107 


10* 


107 


w” 


10* 


107 


代入 FCNN 训练 后 ， 


200 400 w00 800 1000 


Epoch 


00010 


00008 


00006 


earning Rate 
Loss 


0.0004 


0.0002 


0.0000 


1200 1400 


TAKEDAL 两 个 预测 参数 模型 的 训练 过 程 曲线 在 下 面 给 出 : 


0 200 400 600 


Epoch 


0.0010 


0.0008 


0.0006 


0.0004 


0.0002 


0.0000 
800 1000 1200 


图 8 Ka 的 贝 叶 斯 优化 超 参数 〈 左 ) 与 手动 调 参 模型 ( 右 ) 损失 函数 曲线 的 比较 


Fig.8 Comparison of loss function curves between bayesian optimization and manual tuning of k 


从 图 8 中 可 以 看 出 ， 随 着 学 习 率 的 下 降 ， 训 练 集 的 损失 函数 在 逐步 下 降 ， 而 图 8《〈 左 ) 的 测试 集 损失 
函数 在 下 降 了 400 个 epoch 后 趋 于 平稳 ， 图 8《〈 右 ) 手动 调 参 组 的 测试 集 损失 函数 先 下降 后 缓慢 上 升 ， 最 
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EH 
四 


图 9 乡 的 贝 叶 斯 优化 超 参 数 〈 左 ) 与 手动 调 参 模型 ( 右 ) 损失 函数 曲线 的 比较 


Fig.9 Comparison of loss function curves between bayesian optimization and manual tuning o 


( 石 ) 手动 调 


Klo (Cz) 贝 叶 斯 调 参 组 的 损失 函数 在 刚 开 始 训练 时 就 迅速 下 降 ， 而 图 
失 函 数 下 降 时 ， 测 试 集 的 损失 函数 反而 在 上 升 ， 出 现 了 过 拟 合 。 


结果 和 讨论 


预测 问题 计 
Error, MAPE) AR 〈 拟 合 优 度 ) 的 定义 为 ; 


9 


之 


fy 


参 组 的 训练 集 损 


EF 价 指标 : MAE , MSE 的 定义 在 式 (2)(3 ) 中 给 出 , 平均 百分比 误差 (Mean Absolute Percentage 


_100% 4^ y; — 
MAPE ; 之 * (8) 
p i 220 7 »Y Os 
6, -y) 
表示 真实 值 ，y, 表示 样本 均值 ，) 表示 预测 值 。 
R? 用 于 度量 因 变 量 的 变异 中 可 由 自 变 量 解释 部 分 所 占 的 比例 ， 取 值 范 围 是 0~1，R? 越 接近 1， 表 明 丐 
归 曲 线 与 各 观测 点 越 接近 ， 回 归 的 拟 合 程度 就 越 好 。 
表 3 和 表 4 分别 是 有 效 增殖 因数 wp 和 区 域 积 分 通 量 $ 这 两 个 输出 变量 在 贝 叶 斯 优 调 参 后 FCNN 输出 
结果 和 手动 设置 后 输出 结果 误差 的 比较 ， 以 TAKEDA1 和 TAKEDA2 作为 数据 集 : 


X3 贝 叶 斯 调 参与 手动 调 参 模型 预测 hs 的 误差 比较 


Table3 Comparison of errors between bayesian optimization and manual hyperparameter tuni 


ng for ks 


平均 绝对 误差 MAE 均 方 误差 拟 合 优 度 
MSE m 
TAKEDAI 手动 设置 397pcm 6.78996e-05 0.9981 
Manual Setting 
贝 叶 斯 优化 Bayesian. 118pcm 0.000003 0.9997 
Optimization 
TAKEDA2 手动 设置 1625pcm 0.07219 0.2756 
Manual Setting 
贝 叶 斯 优化 Bayesian. 132pem 0.000005 0.9988 


Optimization 


从 表 3 中 可 以 看 出 ， 贝 叶 斯 优化 的 超 参数 组 合 与 如 
势 明 显 。 贝 叶 斯 优化 得 到 的 TAKEDAI H ke 平均 绝对 误差 为 118pcm，TAKEDA2 的 上 


F 动 设置 的 超 参 数 在 误差 大 小 和 拟 合 优 度 方面 相 比 优 


平均 绝对 误差 为 


132pcm， 与 手动 调 参 得 到 的 397pcm 和 1625pcm 相 比 ， 在 TAKEDA 数据 集 上 ， 贝 叶 斯 人 


差 为 手动 调 参 的 1/3; 在 TAKEDA2 数据 集 上 ， 贝 叶 斯 优化 的 误差 为 3 


x 
U 


化 的 平均 绝对 误 


F 动 调 参 的 /112， 精 度 得 到 了 明显 提 


升 。 贝 叶 斯 优化 得 到 的 RE 0.999 左右 , 手动 调 参 得 到 的 RR 在 贝 叶 斯 优化 之 下 ， EB N H 
的 拟 合 程 度 更 好 。 


表 4 ” 贝 叶 斯 调 参 与 手动 调 参 模型 预测 的 误差 比较 


XXXXXX-10 


斯 优化 后 FCNN 


张 凡 等 ， 基 于 神经 网 络 超 参数 优化 方法 的 堆 蕊 中 子 学 参数 预测 研究 


Table4 Comparison of errors between bayesian optimization and manual hyperparameter tuning for $ 


平均 百分比 误差 /% ”最 大 百分比 误差 6 均 方 误差 拟 合 优 度 
MAPE/% Max Percentage MSE 2 
Error/% i 
TAKEDA] 手动 设置 Manual 14.8305 365.3688 0.0000000583 0.8469 
Setting 
Ji 叶 斯 优 化 1.7188 7.5586 0.000000000234 0.9818 
Bayesian 
Optimization 
TAKEDA2 手动 设置 Manual 4.4897 92.1902 4.258e-11 0.9907 
Setting 
Ji 叶 斯 优 化 0.8214 11.1301 3.64e-12 0.9939 
Bayesian 
Optimization 


表 4 中 贝 叶 斯 优化 得 到 的 TAKEDA1 的 9 平均 百分比 误差 为 为 1.7187%, 最 大 百分比 误差 为 7.5585%， 
TAKEDA2 的 9 平均 误差 为 0.8213%, 最 大 百分比 误差 为 11.130%， 达 到 了 一 定 的 精度 。 与 手动 调 参 相 比 ， 
在 TAKEDA1 数据 集 上 ， 贝 叶 斯 优化 的 平均 百分比 误差 为 手动 调 参 的 19， 最 大 百分比 误差 为 手动 调 参 的 
1/50; 在 TAKEDA2 数据 集 上 ， 贝 叶 斯 优化 的 平均 百分比 误差 为 手动 调 参 的 /5， 最 大 百分比 误差 为 手动 调 
参 的 /8， 精 度 同样 得 到 了 很 大 提升 。 贝 叶 斯 优化 得 到 的 R? 在 0.99 左右 ， 手 动 调 参 得 到 的 及 :在 贝 叶 斯 优化 
之 下 ， 表 明 贝 叶 斯 优化 后 FCNN 的 拟 合 程度 更 好 。 图 10, 11 分 别 为 kr 和 经 过 贝 叶 斯 方法 调 参 后 输出 结 
果 的 误差 分 布 直方 图 : 


v 


Frequenc: 


-1500 -1000 -500 0 500 1000 2000 1500 1000 500 0 500 
Error of 丰 .=/pcm Error of k ,/pcm 


10 ”kr 的 误差 分 布 直方 图 
Fig.10 Error distribution of kæ 


由 图 10 可 以 看 出 ，TAKEDA1 和 TAKEDA? 中 kw 的 误差 呈正 态 分 布 ， 而 且 分 布 都 较 集中 ，90% 的 误 
差 都 集中 在 S00pcm 以 内 ，50% 的 误差 都 集中 在 150pem 以 内 。 
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Freqeuncy 


2x 2% 0 2% ”bh es sh 10% 
Percentage Error of $ Percentage Error of $ 


1 乡 的 百分比 误差 分 布 直方 图 


Fig.11 Percentage error distribution of $f 


由 图 11 可 以 看 出 ，TAKEDA1 和 TAKEDA2 F BO EL4) EGRE E E IE S 7), TAKEDALT 的 误差 较 分 
散 ，TAKEDA2 的 图 像 “ 瘦 高 ”， 误 差分 布 比较 集中 ，TAKEDA1 中 4890% 的 百分比 误差 都 集中 在 3.5% 以 
内 ，TAKEDA2 中 90% 的 百分比 误差 都 集中 在 1% 以 内 ， 达 到 了 良好 的 精度 。 


3 结语 


为 更 高 效 求 解 扒 芯 换 料 优 化 问题 ， 本 文 提出 了 贝 叶 斯 优化 神经 网 络 超 参数 算法 作为 堆 芯 输 运 计算 替代 
模型 ， 用 TAKEDAI, TAKEDA2 基准 题 获取 的 数据 集 针 对 进行 训练 并 与 手动 调 参 的 结果 进行 对 比分 析 ， 研 
究 表 明 : 

(D. 贝 叶 斯 优化 超 参数 后 的 FCNN 能 够 较 好 地 拟 合 VITAS 代码 的 计算 结果 , 贝 叶 斯 优化 得 到 的 ks 的 
平均 误差 在 150pem 以 内 ，TAKEDAI 的 平均 百分比 误差 为 为 1.7187%，TAKEDA2 的 平均 百分比 误差 
为 0.8213%， 误 差 在 允许 范围 内 。 

(QD) 贝 叶 斯 优化 得 到 的 超 参数 建立 的 FCNN 模型 明显 优 于 手动 调 参 的 模型 ， 在 训练 得 到 的 误差 和 拟 
合 优 度 两 个 层面 上 来 讲 都 是 如 此 。 

(3) 本 文 使 用 的 超 参 数 及 对 应 的 FCNN 只 适用 于 VITAS 计算 得 到 的 TAKEDA1 和 TAKEDA2 数据 集 。 
若 要 对 其 他 扒 芯 参数 进行 预测 ， 可 以 替换 对 应 的 数据 集 ， 按 照 图 7 所 示 的 流程 图 得 到 新 的 超 参数 组 合并 训 
练 FCNN 即 可 ， 可 以 代替 手动 调 参 的 步骤 ， 具 有 普 适 性 。 

(4) 验证 了 神经 网 络 预测 参数 方法 在 反应 堆 物 理 计算 领域 的 可 行 性 和 优势 , 对 于 不 同 种 类 的 神经 网 络 
在 反应 堆 物理 计算 领域 的 应 用 ， 还 需 进 一 步 探 索 更 多 的 可 能 性 。 
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